查看原文
其他

数据仓库开发是在开发什么?

The following article is from 数据小学生 Author 小黄


写在前面:


数据仓库是干什么的?我们先从全局视角☞大数据职业发展方向看一下,如图:


图片来源:大数据职业发展方向.xmind


简单点说就是,把一拨人生产的数据,搬过来,存储、加工,并在此基础上产出数据给另一拨人看,并提供这些产出数据的售后服务。好比学校,从不同家长手中接收各式各样的学生,老师们细心教育、精心管教,努力让这些孩子成为有用的人。当孩子表现不好或者成绩下滑厉害时,学校领导、家长就会联系老师,研究哪里出了问题。有时是老师教育方式问题,有时是家长疏于管教。


数据仓库开发是开发什么呢?我先说3个

数仓开发平台开发报表开发...

仓库开发,被熟知的数仓分层模型
ODS层->明细层->聚合层->应用层
图片来源:数据仓库分层模型

分层模型,就好比学校的不同年级。当学生被送到学校之后,要经过低年级到高年级的学习,每个年级学习的内容和目标都不一样,而最终的目的就是让学生离开学校之后能做一个有用的人。同样的,数据进入到数仓之后,要经过不同层级的加工,每层都有各自的职责和目标,最终目的是让从数仓产出的数据能有效的为人所用。

Kimball Data Warehouse Architecture


不同的公司,对分层的代号不一样,层级也不一样。有的会在ODS层加一个数据缓冲层,用于解决数据漂移,有的会在轻度汇总层后面加一个宽表层,提供按各种维度汇总的各种指标。有的在明细层出宽表,提供各种维度的明细数据。


仓库开发


SQL BOY/GIRL?并不仅仅是写写SQL、做做模型。ODS层,是从其它数据源同步数据到仓库,需要考虑是增量同步还是全量同步,需要考虑数据漂移的问题,需要考虑有更新或删除操作的数据如何处理等。明细层,需要考虑事实表如何开发(单事务、多事务),维表如何开发等。数仓每个层级的设计和优化,都是为了确保数据的正确、完整以及高效利用。就像学校每个年级的教学都是为了学生能更优秀和完善。



平台开发


同数仓工具开发,为数仓的完整和健康保驾护航。数据入仓的数据同步工具,数据展示的报表工具或者数据产品,数仓库表信息和血缘的元数据管理工具,数据质量监控工具,数据查询工具,数据查询接口,数据开发的IDE,甚至调度系统,都是数据仓库配套的工具。这些工具为数仓开发者使用,不一定都是数仓开发者开发,但由数仓开发者开发的这些工具肯定是最适用于数仓开发的。



报表开发


数据仓库数据的检验与价值。数仓的数据最后是通过报表来对外体现价值。报表可以直观的检验数据质量,可以不断补充和完善数仓数据的数据 。报表开发也是一个较为繁琐的工作,开发前的各方沟通,开发完成之后的售后服务。除了技术方面的要求外,也十分考验人的细心和耐心。但不得不说,报表开发是新人了解数仓体系的最高效的方式 之一。
图片来源:大数据可视化BI工具,通幽洞微

简单的业务报表开发,只涉及到ODS,PDW两层,接入业务方的数据,根据业务方提供口径计算得到app层报表,最后写到指定库或者邮件发送报表。数仓开发工作大部分用于与产品和业务开发的需求沟通上,需求明确之后的开发相对简单。


复杂报表开发,由业务产品或运营或数据产品经理发起需求,数据产品经理沟通整理好统计口径、数据产品的功能和展示方式,再向数仓开发和数据产品开发同步信息。数仓开发根据数据产品提供的口径进行开发,其中也可能涉及与业务开发沟通相关业务库表、字段等信息。数据产品经理的参与,数仓开发可以减少一部分需求沟通所花费时间,但依然会与数据产品经理、数据产品开发、业务开发或者产品运营进行沟通。这类需求较为复杂,涉及到数仓的大部分分层,开发有一定难度。


我期待的报表开发,DPM数据产品经理承担数仓开发的一部分沟通和协同工作。



写在最后


作为数据仓库的冰山一角,本篇简单介绍了下数仓的工作:仓库开发、平台开发和报表开发。将数仓与学校进行类比,也是希望能让工作更有趣一些。不足之处,请批评指正。文末戳“阅读原文”回复:数仓,可领取学习资料!






▼  大厂实践  ▼




欢迎大家扫描下方二维码订阅「数据仓库与Python大数据」内容并推荐给更多数据方向的朋友,希望有更多机会和大家交流。


----  C  ----


欢迎加入数仓中台技术交流群。进群方式:请加同学微信(微信号:iom1128),回复:数据,审核通过,会自动拉你进群。


推荐阅读


  1.   数据治理 | 数据治理七把利剑

  2.   数据治理 | 元数据管理之实践

  3.   面试系列 | 大数据、数仓大厂面试(二)

  4.   面试真经 | 大数据、数仓大厂面试(一)

  5. 漫谈系列 | 数仓第一篇NO.1 『基础架构』

  6. 漫谈系列 | 数仓第二篇NO.2 『数据模型』

  7. 漫谈系列 | 数仓第三篇NO.3 『数据处理』

  8. 漫谈系列 | 数仓第四篇NO.4 『数据应用』

  9. 漫谈系列 | 数仓第五篇NO.5 『数据质量』



觉得内容不错的话 请分享到朋友圈哦~
▼ 福利时刻 ▼ 


01. 后台回复「经典」,即可领取大数据数仓经典书籍。

02. 后台回复「中台」,即可领取大厂中台架构高清ppt。

03. 后台回复「加群」,或添加小助微信IDiom1128  拉您入群(备注方向:大数据|数仓|分析|Flink|资源|指标体系|BI)或领取资料。

Q: 关于实时数仓,你还想了解什么?

欢迎留言区与大家分享

觉得不错,请把这篇文章分享给你的朋友哦

入群请联系小助手:iom1128『紫霞仙子』

更多精彩,请戳"阅读原文"到"数仓之路"查看

 

 

       !关注不迷路~ 各种干货、资源定期分享

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存